- PSYCHO-ACOUSTIQUE
- PSYCHO-ACOUSTIQUELa psycho-acoustique, branche de la psychophysique, a pour objet l’étude expérimentale des relations quantitatives entre les stimulus acoustiques mesurables physiquement et les réponses de l’ensemble du système auditif: sensations et perceptions auditives. Après avoir établi ces relations, le psycho-acousticien recherche dans le fonctionnement du système neurosensoriel de l’audition des mécanismes permettant d’en rendre compte, soit en puisant dans les connaissances déjà acquises, soit en faisant des hypothèses sur les mécanismes qui pourraient être mis en jeu.Puisque la psycho-acoustique met en évidence les caractéristiques des vibrations acoustiques qui sont importantes pour l’oreille humaine, ses données sont indispensables aux acousticiens préoccupés par les problèmes de traitement artificiel de l’information sonore: enregistrement, transmission, reproduction des sons mais aussi synthèse et reconnaissance automatique de la parole. La métrologie elle-même, en matière de sons, est profondément dépendante des acquis de la psycho-acoustique. On s’efforce, par exemple, de construire des sonomètres dont la réponse pourrait reproduire celle de l’oreille et, si l’on ne sait pas encore très bien mesurer les bruits impulsionnels, c’est en partie parce que leurs effets sur l’oreille n’ont pas été complètement précisés.La psycho-acoustique cherche non seulement en quoi le système auditif transforme le monde des stimulus physiques, mais encore comment le système nerveux opère ces transformations, par quelles sortes de codage, de traitements, par quels types de mécanismes. Ainsi elle offre, outre une base de données expérimentales sur les sensations auditives, des théories et des hypothèses aux neurophysiologistes de l’audition. Souvent condamnés à expérimenter sur l’animal, ces derniers ne peuvent guère apprendre de leurs sujets ce qu’ils perçoivent, sauf en observant certains comportements ou en utilisant le détour du conditionnement.La psycho-acoustique se nourrit des travaux d’audiologie expérimentale; et, bien entendu, elle inspire l’audiologiste. Les cas de dysfonctionnement du système auditif humain constituent un réservoir d’observations (correspondant aux résultats d’expériences qu’il aurait été impossible de faire) où l’on n’a pas fini de puiser. Ainsi les recherches actuelles sur la localisation dans le bruit font souvent appel à certains types de malentendants. En retour, les connaissances de la psycho-acoustique contribuent à l’amélioration des prothèses auditives, à une lutte plus efficace contre le bruit, etc. Les recherches en psycho-acoustique répondent à un besoin de plus en plus important des sociétés développées, qui connaissent à la fois l’effet grandissant des bruits, le vieillissement de la population et le développement des transmissions audiovisuelles.Les méthodesOn utilise en psycho-acoustique des méthodes de mesure qui sont celles, classiques, de la psychophysique (méthode des limites, méthode des stimulus constants, méthode d’ajustement, méthode d’estimation directe, méthode de production; cf. PSYCHOPHYSIQUE). Des versions «adaptatives» de la méthode des limites ont été développées: dans une procédure adaptative, la valeur des paramètres physiques à évaluer dépend de la réponse du sujet au stimulus précédent. Ces méthodes adaptatives visent à accélérer la convergence des résultats. Une autre amélioration, issue de la théorie de la détection du signal, permet une mesure vraie de la sensibilité: certains biais sont évités par la prise en compte des réponses erronées.Les principaux caractères des sensations auditives sont l’intensité perçue ou sonie, la hauteur perçue ou tonie, le timbre, la durée et la localisation spatiale. Ces caractères sont principalement liés aux paramètres physiques suivants: niveau de pression acoustique, fréquence, composition spectrale, durée et différences interaurales. L’une des premières observations de la psycho-acoustique est qu’il n’y a pas de relation bi-univoque entre les paramètres physiques des sons et les sensations qu’ils produisent. Par exemple, si une augmentation de la fréquence d’une vibration sinusoïdale entraîne principalement une augmentation de la hauteur perçue, elle peut aussi donner lieu à une variation de l’intensité perçue.Aire d’audition, sonie et hauteur des sons pursEn ce qui concerne l’intensité sonore, l’aire d’audition de l’homme est comprise entre le seuil d’audition (niveau minimal que doivent avoir les sons pour être juste audibles) et le seuil de douleur [cf. ACOUSTIQUE].En ce qui concerne la fréquence, l’être humain est capable d’entendre des sons ayant des fréquences aussi basses que 16 Hz et aussi hautes que 20 kHz (soit 10 octaves). La limite supérieure des fréquences audibles se dégrade rapidement avec l’âge: rares sont les personnes de plus de soixante ans qui peuvent percevoir des sons de plus de 8 kHz.Un son pur correspond à une seule vibration sinusoïdale. Les sons purs peuvent nous paraître faibles ou forts, aigus ou graves. En première approximation, leur sonie (intensité perçue) est déterminée par leur niveau de pression acoustique. Mais, à niveau de pression acoustique égal, les sons de fréquence basse ou très élevée ont une sonie inférieure aux sons de fréquence moyenne. C’est ce que montrent les courbes d’isosonie établies par Fletcher et Munson (cf. ACOUSTIQUE, fig. 16). Ces niveaux d’isosonie (mesurés en phones) représentent la sonie de façon relative et non absolue. L’échelle des sones a été établie à partir des rapports de sonie entre les sons. La valeur de 1 sone a été définie arbitrairement comme représentant la sonie d’un son de 1 000 Hz à un niveau de 40 dB. Pour chaque fréquence on peut ainsi obtenir une fonction reliant la sonie exprimée en sones au niveau de pression acoustique. Au-delà de 40 phones, cette fonction suit globalement une loi puissance d’exposant 0,6. Outre la fréquence, la durée d’un son intervient dans la détermination de la sonie. Aux fréquences et aux niveaux moyens, la sonie croît avec la durée jusqu’à une valeur de 180 ms environ appelée durée critique.En première approximation, la tonie (ou hauteur perçue) d’un son pur est déterminée par sa fréquence. Mais au-delà de 1 000 Hz, la fréquence doit être plus que doublée pour produire une sensation de hauteur double. L’échelle de tonie est graduée en mels. Pour attribuer une hauteur précise à un son, il faut que celui-ci ait non seulement un certain niveau de pression acoustique (appelé seuil de perception tonale) mais aussi une durée d’au moins 10 millisecondes. En dessous de cette limite, le son tend à être perçu comme un clic.Les plus petites variations audibles de fréquence et d’intensité, appelées seuils différentiels, sont pour les sons purs d’environ 3,5 p. 1 000 de la fréquence et de 1 dB pour l’intensité. Ainsi la loi de Weber se trouve globalement vérifiée. Toutefois, ces valeurs varient notablement suivant la méthode de mesure utilisée et suivant la sonie.Lorsqu’on entend simultanément deux sons purs de fréquences différentes, il arrive que l’un d’entre eux devienne inaudible. Cet effet de masque, qui peut être total ou partiel, dépend des intensités et fréquences relatives des deux sons appelés masqué et masquant. L’effet masquant d’un son est représenté par la déformation de la courbe des seuils d’audition mesurés en présence de ce son masquant (fig. 1). Tout son pur qui, par ses caractéristiques en fréquence et en intensité, se situe dans la zone hachurée sera inaudible en présence du son masquant. L’allure dissymétrique de ces courbes montre qu’un son donné masque plus facilement un son de fréquence supérieur qu’un son de fréquence inférieur. Plusieurs auteurs font l’hypothèse que le changement du seuil est directement lié à l’excitation psycho-acoustique déterminée par le son masquant. Ainsi, lorsque le son masqué est de fréquence pure et de niveau faible, il constitue une sorte de sonde placée en un point de la cochlée; c’est l’équivalent psycho-acoustique de l’électrode qui enregistre l’activité d’une seule fibre du nerf auditif. Cette représentation de l’effet de masque (où le son masqué reste fixe et le son masquant a une fréquence et un niveau variable) est la courbe de sélectivité en fréquence psycho-acoustique (fig. 2). La forme de ces courbes reproduit assez bien les courbes de réponses enregistrées au niveau des fibres individuelles du nerf auditif du chat.L’étendue en fréquence des effets de masque prouve qu’un son pur excite le système auditif sur une bande de fréquence bien plus large que son spectre physique. Cela pose le problème du pouvoir de résolution fréquentielle de l’ouïe. Suivant la loi d’Ohm, l’oreille est capable de séparer toutes les harmoniques d’un son complexe. Pourtant les expériences prouvent que seules les 5 à 8 premières harmoniques d’un son complexe peuvent être identifiées séparément, à condition encore d’être suffisamment séparées en fréquence. Le concept de «filtre auditif» développé par Fletcher permet de rendre compte de ces phénomènes. Fletcher a suggéré que le système auditif se comporte comme un banc de filtres qui se chevauchent et dont les fréquences centrales s’échelonnent continûment. Il a modélisé cet ensemble par une série de filtres rectangulaires dont la largeur a été appelée bande critique. Les largeurs de ces bandes critiques ont été déterminées expérimentalement: le seuil d’audition d’un son pur masqué par un bruit de largeur de bande variable mais de niveau global constant augmente quand la largeur de bande du bruit croît puis reste fixe dès que cette largeur de bande dépasse une certaine valeur critique. Ainsi, seule une certaine bande de fréquence du son masquant contribue au masquage du son pur. C’est la bande critique. Sa largeur vaut 100 Hz jusqu’à 500 Hz et au-delà elle est égale à 20 p. 100 environ de la fréquence centrale (fig. 3). Elle est donc assez proche des 1/3 d’octave. Cette valeur critique correspond aussi à l’écartement en fréquence nécessaire pour que deux harmoniques soient discriminées dans un son complexe périodique. Elle doit être comprise comme une indication assez grossière de la largeur de bande du «filtre auditif». L’oreille, capable de percevoir d’infimes différences de tonie et de sonie entre deux sons présentés successivement, possède donc aussi la faculté d’intégrer l’information spectrale et de sonie sur de larges zones de fréquence. L’origine de ce phénomène de bande critique, ainsi que celle de l’effet de masque, reste encore mal connue: en général, on pense actuellement qu’elle serait localisée au niveau de la membrane basilaire.Si deux sons purs sont non pas présentés simultanément, mais séparés par un bref silence, ils peuvent se masquer mutuellement. L’effet de masque postérieur (ou pro-actif, quand le son masquant précède le son masqué) et l’effet de masque antérieur (ou rétroactif, quand le son masquant suit le son masqué) ne se produisent que pour des écarts temporels masquant-masqué limités à quelques dizaines de millisecondes. Ils dépendent aussi des relations de fréquence entre les deux sons. En revanche, les courbes de sélectivité en fréquence obtenues en masquage postérieur ont des pentes plus raides que celles qui sont obtenues en masquage simultané, en particulier vers les hautes fréquences. Cette différence est attribuée aux effets combinés de masque et de suppression latérale (effet suppresseur exercé au niveau des réponses d’un récepteur par les récepteurs voisins): ce dernier phénomène, observé déjà au niveau des fibres du nerf auditif, pourrait jouer un certain rôle dans la sélectivité en fréquence de l’ouïe.Lorsque l’oreille est stimulée par un signal constitué de l’addition de deux sons sinusoïdaux de fréquence 1 et 2, des sons autres que ceux qui sont physiquement présents dans ce signal peuvent être audibles. On les appelle sons de combinaison. Les plus importants sont ceux qui apparaissent aux fréquences 22 漣 1, 2 漣 1 et 2 + 1. Certaines de leurs propriétés semblent indiquer qu’ils sont traités par le système auditif exactement comme des sons physiques réels puisque, en présence d’autres sons, ils peuvent masquer ou être masqués ou encore produire des battements. On considère généralement qu’ils sont produits par des non-linéarités des mécanismes cochléaires, dont les origines sont encore incertaines.Sonie des sons complexesIl est souvent nécessaire de mesurer la sonie des sons complexes, c’est-à-dire des sons dont la forme d’onde est la somme de plusieurs vibrations sinusoïdales. Pour y parvenir, on effectue habituellement d’abord une analyse spectrale. Cela nécessite que ces sons soient suffisamment stationnaires pour pouvoir être correctement représentés par une seule forme spectrale. L’introduction des dB (A), (B) et (C) dans les mesures de niveaux obtenues par sonomètres correspond à une première tentative d’évaluation non pas du niveau physique mais de la sonie perçue des sons complexes. Les mesures en dB (A), (B) et (C) sont, en effet, obtenues par pondération de l’énergie spectrale globale, suivant des courbes avoisinant les courbes d’isosonie de 40, 70 et 100 phones respectivement. Toutefois, ces mesures ne correspondent pas exactement aux mesures subjectives de la sonie. Par exemple, à niveau global constant, la sonie d’un bruit blanc [cf. ACOUSTIQUE] filtré augmente avec la largeur de bande dès que celle-ci dépasse la largeur de la bande critique. Pour évaluer correctement la sonie de sons complexes, il faut prendre en compte cet effet de bande critique ainsi que l’effet de masque, qui sont importants pour évaluer correctement la contribution réelle de chaque composante à la sonie globale. Deux méthodes de ce type ont été normalisées (ISO R 532 A et B). Elles peuvent, en première approximation, être utilisées aussi pour la mesure de sonie de bruits impulsionnels à condition que le signal soit auparavant intégré sur une durée de 100 millisecondes environ.Des méthodes analogues permettent d’évaluer la nuisance d’un bruit (évaluée en PN dB). Elles tiennent compte du rôle plus important que jouent les hautes fréquences du point de vue de la nuisance.Adaptation et fatigueL’exposition prolongée à une stimulation auditive donne lieu à deux types de modifications du fonctionnement du système auditif: l’adaptation et la fatigue auditive. L’adaptation est une diminution progressive de la sonie durant l’écoute prolongée d’un son de niveau stable. À la différence de ce que l’on observe dans d’autres modalités sensorielles, l’adaptation auditive ne se produit que pour les sons de niveau faible (inférieur à 20 dB) En revanche, un son continu de niveau plus élevé voit sa sonie diminuer progressivement en présence d’un autre son présenté de façon intermittente. La fatigue auditive se traduit par une élévation du seuil d’audition et une diminution de la sonie consécutives à l’exposition de l’oreille à un son intense (au-dessus de 70 à 80 dB). L’élévation du seuil d’audition disparaît généralement au bout d’un temps dit de récupération, qui peut atteindre vingt jours. En cas de stimulation trop intense ou trop prolongée, on peut observer un déficit auditif permanent. Ces situations se rencontrent fréquemment dans des entreprises industrielles, dans des «boîtes de nuit»; peuvent même en être victimes ceux qui écoutent certains magnétophones portatifs. L’une des modifications importantes observées dans le cas de fatigue auditive comme en cas de surdité est le recrutement de la sonie, qui correspond au fait que la croissance de la sonie est anormalement rapide quand le niveau de pression acoustique augmente. Dans la vie courante, ce phénomène explique les remarques de certains malentendants qui se plaignent du bruit dès que le niveau dépasse même légèrement un niveau moyen.Hauteur des sons complexesLa plupart des sons complexes que nous percevons peuvent être classés sur une échelle allant du grave à l’aigu. Quand ces sons complexes sont périodiques, cet attribut perceptif de hauteur correspond à la fréquence fondamentale. Toutefois, la hauteur d’un son complexe est perçue même si cette fréquence fondamentale n’est pas présente physiquement dans le signal (phénomène dit du fondamental absent): ainsi le téléphone qui ne laisse pas passer la fréquence fondamentale de la voix (située entre 100 et 250 Hz en moyenne) nous permet pourtant de reconnaître si notre interlocuteur est un homme ou une femme. La théorie classique dite théorie spatiale de la représentation des fréquences (place theory ) postule que le stimulus, analysé spectralement, excite la membrane basilaire en différents points correspondant aux différentes fréquences de ses composantes. La hauteur perçue serait alors liée à la localisation sur la membrane basilaire du maximum de l’enveloppe d’excitation produite par le stimulus et donc à la distribution de l’activité nerveuse entre les différentes fibres. Cette théorie, qui peut s’appliquer aux sons purs, ne permet pas d’expliquer le phénomène du fondamental absent, puisque celui-ci n’a aucune représentation spatiale dans la cochlée. Dans ce dernier cas, tout se passe comme si la fréquence fondamentale était reconstituée à partir de la mesure de l’écart de fréquence entre les harmoniques présentes. Par exemple, un son composé de 5 harmoniques – 600, 800, 1 000, 1 200 et 1 400 Hz – a une hauteur perçue de 200 Hz. Une théorie qui, se substituant à la théorie spatiale, est appelée théorie temporelle suggère que la hauteur d’un stimulus est liée aux écarts temporels entre les impulsions nerveuses produites par ce stimulus. On a observé que, dans les fibres du nerf auditif, les intervalles entre deux impulsions nerveuses successives correspondent soit à la période, soit à des multiples entiers de la période de l’onde acoustique. Cette organisation temporelle fournirait ainsi un indice de hauteur. Toutefois, ce synchronisme disparaît pour des fréquences supérieures à 5 kHz, niveau où d’ailleurs le sens de hauteur musicale n’existe plus.Il est maintenant établi que ce n’est pas la fréquence fondamentale elle-même qui porte l’information sur la hauteur d’un son complexe. L’essentiel de cette information provient des harmoniques du son qui sont, d’une part, séparables spatialement au niveau de la cochlée et qui, d’autre part, se situent dans le domaine des fréquences moyennes (500-1 500 Hz). Cependant, le codage de ces harmoniques à la périphérie du système auditif reste un sujet de discussion. Il semble très probable que les deux types d’information (distribution d’activité entre les fibres et synchronisme des décharges nerveuses) soient disponibles et utilisables. Quant aux mécanismes plus centraux qui permettent d’extraire, à partir de ces informations, une hauteur du son, ils font, eux aussi, l’objet d’un recours à plusieurs modèles théoriques qui se trouvent en conflit. Pour certains, le «processeur central de hauteur», disposant d’informations sur les hauteurs des différentes composantes spectrales, aurait pour tâche de «reconnaître une forme» et de reconstituer une fréquence fondamentale virtuelle. Cette capacité à reconnaître une forme résulterait d’un apprentissage associatif qui s’effectue au cours de l’enfance. Pour d’autres, ce processeur central, qui disposerait d’informations non seulement sur la hauteur des harmoniques présentes dans le signal physique mais aussi sur celle de toutes leurs subharmoniques, n’aurait pour tâche que de sélectionner la fréquence fondamentale parmi toutes les subharmoniques représentées dans le message nerveux. Ce traitement ne nécessiterait donc pas d’apprentissage.Dans la pratique musicale, le jeu de deux notes simultanées peut paraître ou non consonant. Cette consonance que l’on attribue à certains intervalles musicaux est liée aux rapports qu’entretiennent entre elles les hauteurs perçues des deux notes individuelles. En général, si ces rapports sont simples, les intervalles sont perçus comme consonants: ainsi la quinte correspond à un rapport 3/2, la tierce majeure à un rapport 5/4, la tierce mineure à un rapport 6/5, etc. Dans tous ces cas, plusieurs harmoniques des deux notes coïncident. Dans le cas de rapports de hauteur non simples, les harmoniques diffèrent et peuvent produire des battements qui contribuent aux jugements de dissonance. Ces observations faites sur des sons complexes ne valent pas pour les sons purs. Une paire de sons purs simultanés tend à être jugée comme consonante dès que la séparation en fréquence dépasse la bande critique. D’autre part, si des rapports simples de hauteur perçue semblent être préférés pour des sons simultanés, cela n’est plus toujours vrai pour des sons successifs.Ces observations sur la consonance peuvent être mises en relation avec les mécanismes qui régissent la perception de la hauteur. Plusieurs expériences montrent, par exemple, que nous préférons des intervalles musicaux ou des paires de sons qui présentent des similitudes dans l’organisation temporelle des impulsions nerveuses que les sons individuels produisent, pour leur part, au niveau du nerf auditif. Certaines autres expériences suggèrent que ces jugements s’acquièrent par apprentissage dès les premiers moments de la vie, l’individu étant exposé à des sons complexes qui sont souvent harmoniques (la parole, par exemple). De toute manière, même s’il existe une base psycho-acoustique des sensations de consonance et de dissonance, il est certain que l’expérience de l’enfance, les différences individuelles et l’environnement culturel jouent aussi un rôle essentiel dans ces jugements.Le timbreNous sommes capables de distinguer une note jouée au piano d’une même note jouée à la trompette ou au violon. L’attribut perceptif qui nous permet de faire cette distinction entre des sons ayant même hauteur et même sonie est le timbre. Contrairement à la sonie et à la hauteur, qui peuvent globalement être considérés comme des attributs perceptifs unidimensionnels, le timbre est multidimensionnel: il n’existe pas d’échelle unique pour décrire le timbre de différents sons. On doit donc chercher plusieurs supports physiques du timbre. Pour des sons stationnaires, le timbre dépend essentiellement de la distribution de l’énergie suivant la fréquence. Par exemple, des sons complexes possédant des harmoniques graves intenses sonneront «mou», alors que des sons possédant des harmoniques aiguës intenses paraîtront «pointus» et «pénétrants». Pour des sons évolutifs dans le temps, la structure temporelle et en particulier les transitoires d’attaque viennent s’ajouter à la forme spectrale globale pour déterminer le timbre.Localisation et perception de l’objet sonoreDans la vie quotidienne, les sons nous parviennent souvent d’un certain nombre de sources différentes mais simultanées. Le système auditif est en général capable de classer, voire de hiérarchiser, ces entrées acoustiques en regroupant les composantes provenant de chaque source sous la forme de flux perceptifs séparés. On peut ainsi attribuer à chaque source un «objet sonore» ayant son propre rythme, sa propre hauteur, sa propre sonie et sa propre localisation dans l’espace. Plusieurs indices physiques sont utilisés pour faire cette séparation perceptive. Ce sont essentiellement les variations de la hauteur globale perçue, les décalages temporels des attaques, les variations brusques de sonie ou de forme spectrale et les différences entre les informations parvenant aux deux oreilles. Certains de ces indices permettent d’expliquer ce que l’on appelle l’effet cocktail: même dans une assemblée bruyante, nous sommes capables de suivre une conversation ou d’écouter spécifiquement ce qui est dit assez loin de nous. Dans ce cas particulier de détection d’un signal au milieu d’un bruit, le traitement binaural joue un grand rôle. Utilisant les différences entre les informations fournies aux deux oreilles, il nous aide à améliorer le rapport signal/bruit, à supprimer les échos dans les pièces réverbérantes et, plus généralement, à localiser les sons dans l’espace. Notre capacité de localisation par voie auditive est bonne dans le plan horizontal et assez bonne dans le plan vertical, mais elle perd de sa précision dans la dimension de la profondeur ou de l’éloignement. La reconstitution d’objets sonores à partir d’un ensemble d’informations acoustiques simultanées peut aussi être facilitée par la mise en jeu de capacités extra-auditives du sujet, comme l’attention par exemple. Cette mise à contribution de l’attention peut ainsi augmenter la charge mentale. Cela explique que nous ne soyons plus capables, au bout d’un certain temps, de suivre correctement une conversation dans une ambiance trop bruyante. Inversement, l’attention et certains facteurs extra-auditifs peuvent aider à la formation des flux perceptifs.
Encyclopédie Universelle. 2012.